应用于蛋白质多序列比对(MSA)数据集的最新生成学习模型包括简单且基于可解释的物理的POTTS协方差模型和其他机器学习模型,例如MSA-Transformer(MSA-T)。最佳模型准确地重现了蛋白质内的生物物理约束引起的MSA统计数据,从而提出了哪种功能形成最佳模型的问题。POTTS模型通常是由有效的电位(包括成对残基 - 残基相互作用项)所指出的,但有人建议MSA-T可以捕获由效能电位引起的效应,这些电势包括成对相互作用和隐式相互作用以及MSA中的系统发育结构。在这里,我们比较了POTTS模型和MSA-T的能力,重建了反映复杂生物学序列约束的高阶序列统计。我们发现,模型性能在很大程度上取决于序列之间系统发育关系的处理,这可以诱导MSA中的非生物物理突变协方差。在使用系统发育依赖性的明确校正时,我们发现Potts模型在检测生物物理起源的上皮相互作用方面优于MSA-T。
主要关键词
![arxiv:2503.00289v1 [physics.bio-ph] 2025年3月1日PDF文件第1页](/bimg/3/32bfee6752b26ab14d346f7973fb276119aa221d.webp)
![arxiv:2503.00289v1 [physics.bio-ph] 2025年3月1日PDF文件第2页](/bimg/d/de8a1f0cf30de2543372c8bef962b1030c18c0a2.webp)
![arxiv:2503.00289v1 [physics.bio-ph] 2025年3月1日PDF文件第3页](/bimg/e/e0c0f45a3379a402aa2b33107367c2b5d908fe2e.webp)
![arxiv:2503.00289v1 [physics.bio-ph] 2025年3月1日PDF文件第4页](/bimg/6/6351ab4036e1b9374323dcb7b7ea0ebdadd717d3.webp)
![arxiv:2503.00289v1 [physics.bio-ph] 2025年3月1日PDF文件第5页](/bimg/2/268fb8cad751fc3a781bc5ce003549941c712dff.webp)

![arxiv:2503.00289v1 [physics.bio-ph] 2025年3月1日](/simg/8/8a7edae2917ddf2b6be5c2c146c4bc62338cf57a.webp)